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摘要 : 系统 发 育 树 又 称 进化 树 、 生 命 树 等 ， 在 达尔 文 的 “进化 论 ” 一 书 中 首次 出 现 ， 之 后 系统 发 育 树 的 重 构 被 广大 生物 学 家 
所 接受 。 该 文 阐述 了 构建 系统 发 育 树 的 基本 流程 ， 对 目前 用 于 构建 系统 发 育 树 的 四 类 算法 〈 距 离 法 、 最 大 简约 法 、 最 大 似 然 
ERI UN DAD 进行 了 详细 地 分 析 和 比较 ， 并 介绍 了 一 些 常用 系统 发 育 树 构建 和 分 析 软 件 CPHYLIP, MEGA, MrBayes ) 
的 特点 。 


关键 词 : 系统 发 育 树 ; 距离 矩阵 法 ;最 大 简约 法 ， 最 大 似 然 法 ， 贝 叶 斯 算法 ， 系 统 发 育 分 析 软 件 
中 图 分 类 号 : Q332 ”文献 标志 码 : A 文章 编号 : 0254-5853-(2013)06-0640-11 
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A bird’s eye view of the algorithms and software packages for 
reconstructing phylogenetic trees 
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Abstract: The prototype phylogenetic tree, i.e., evolutionary “tree” or “tree of life”, was first conceived by Charles Darwin in his 
seminal book “The Origin of Species”, and its reconstructions have been approached by generations of biologists ever since. In this 
article, we briefly reviewed the major algorithms and software packages for reconstructing phylogenetic trees. Specifically we 
discuss four categories of phylogeny algorithms including distance-matrix, maximum parsimony, maximum likelihood, and Bayesian 
framework, as well as software packages (PHYLIP, MEGA, MrBayes) based on them. 


Keywords: Phylogenetic tree; Distance matrix; Maximum parsimony; Maximum likelihood; Bayesian framework; Phylogenetic 
analysis software. 











RRRA RETA RY AD SCHR CI SR 或 。 树 的 构建 就 是 从 现存 物种 和 古生物 学 记录 存留 的 
是 指 生 命 自 起 源 后 的 整个 遗传 进化 史 (Avise， 证 据 来 重 现 生命 进化 史 的 科学 探索 。 用 伟大 的 进化 
2006)， 系 统 发 育 树 是 描述 物种 间或 操作 分 类 单元 生物 学 家 Dobzhansky (1973) 的 名 言 “ 如 果 没 有 
间 (operation taxonomic units, OTUs) RRRA J 进化 论 ， 生 物 学 的 一 切 便 毫 无 意义 ”来 强调 系统 发 
系 的 图 论 模型 。 操 作 分 类 单元 可 以 是 现存 物种 、 基 ” 育 树 的 重要 性 是 恰如其分 的 。 

因 、 基 因 组 或 者 是 任何 其 他 可 操作 单元 。 系 统 发 育 1 于 技术 限制 ， 最 初 分 类 学 家 只 能 依靠 生物 的 
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6 期 张丽娜 等 ， FYFE] RIE AS Aa W TAA EH 641 








形态 特征 来 推断 物种 间 的 杀 缘 关 系 。 但 表 型 特征 存 

在 一 定 的 局 限 性 ， 由 于 趋同 进化 现象 ， 有 时 候 杀 缘 

关系 很 远 的 生物 体 也 表现 出 很 大 的 相似 性 ， 如 鲜 和 

蝙蝠 ， 虽 然 形态 差异 很 大 ， 但 都 具有 发 达 的 高 频 回 
能 






































声 定 位 能 力 。 同 时 ， 许 多 生物 个 体 可 能 由 于 体型 较 
小 ， 数 量 多 而 导致 对 其 表 型 特征 的 研究 较 困 难 ， 如 
各 类 微生物 。 另 外 许多 生物 体 间 的 共同 特征 少 之 又 
少 ， 很 难 发 现 何 种 表 型 特征 能 用 来 研究 比较 。 随 着 
分 子 生物 学 研究 的 不 断 发 展 和 检测 核 音 酸 序列 和 各 
种 氨基 酸 序列 技术 的 成 熟 ， 使 得 从 小 分 子 层面 上 构 
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的 基本 术语 。 

DY CAH ESO: 连通 的 无 环 图 称 为 树 。 度 
为 1 的 叫 叶 子 节点 ， 度 大 于 等 于 1 的 为 根 节点 ， 
节点 间 的 连 线 叫 树枝 。 

树 《〈 数 据 结构 中 定义 ): 由 一 个 集合 以 及 在 该 
集合 上 定义 的 一 种 非 线性 结构 关系 。 

树 〈 生 物 信息 中 定义 ): 表示 物种 之 间 的 进化 
关系 的 树 状 图 谱 。 由 树枝 和 节点 组 成 。 节 点 分 为 内 
部 节点 和 外 部 节点 ， 内 部 节点 代表 的 是 进化 事件 发 
生 的 位 置 或 进化 过 程 中 的 共同 祖先 ， 外 部 节点 又 叫 



















































































a ORSON SOE gr 
HE, REPS MU PE OAS BIR, TSU ee AY REAN 

基 酸 序列 数据 也 被 收集 于 如 GenBank , ae 
DDBJ 等 大 型 数据 库 中 , 促使 人 们 可 从 更 大 范围 上 建 
立 物 种 间 的 遗传 进化 关系 。 ae ee 

































































叶子 节点 ， 代 表 的 是 不 同 物 种 或 是 可 操作 单元 。 树 
枝 是 连接 各 节点 的 边 ， 树 枝 长 度 代表 的 是 生物 进化 
时 间或 进化 距离 。 叶 子 节 点 的 度 为 1， 内 部 节点 的 
度 至 少 为 3。 如 图 la 所 示 ， 节 点 AD 为 叶子 节 
点 ， 节 点 1、2 为 内 部 节点 ， 节 点 0 为 根 节点 。 







































































传统 方法 不 可 比拟 的 优势 ,可 从 核酸 和 氨基酸 序列 差 
pe idle sehen at ieee Lear 
关系 极 远 的 生物 体 间 的 进化 关系 ,同时 能 对 体型 较 小 
的 微生物 间 的 进化 关系 进行 深入 研究 。 

目前 许多 系统 发 育 树 构建 算法 都 是 从 解决 最 
优化 问题 出 发 ， 如 最 大 简约 法 、 最 大 似 然 法 等 ， 但 
是 这 些 方法 受 物种 数量 严格 限制 ， 当 物种 数量 较 多 
IN, 构建 系统 发 育 树 是 一 个 典型 的 NP-complete X 
题 (Foulds & Graham，1982)。 这 意味 着 在 多 项 式 
时 间 内 不 能 被 计算 机 求解 ， 只 能 被 非 确 定 机 求解 ; 
不 能 得 到 绝对 数值 解 ， 只 能 通过 比较 相对 解 来 确定 
最 合适 的 答案 。 然 而 庆幸 的 是 人 们 后 来 发 明了 改进 
算法 : 启发 式 搜索 算法 ， 通 过 分 割 数据 集 (操作 
人 
法 〈 最 大 似 然 或 最 大 简约 算法 等 ) 求 出 每 个 子 集 
对 应 的 最 优 树 ， 然 后 合并 每 个 子 集 得 到 的 最 优 树 ， 
最 终 形成 整个 数据 集 的 最 优 树 。 

随 着 生物 信息 学 的 发 展 ， 使 用 计算 机 技术 处 
系统 发 育 树 成 为 不 可 或 缺 的 理论 ， 构 建 系 统 发 育 树 
的 软件 包 的 相继 出 现 ， 并 得 到 了 广泛 的 应 用 。 对 构 
建 进化 树 程 序 包 的 算法 、 运 用 限制 条 件 及 其 优 缺 点 
的 了 解 ， 有 助 于 我 们 选用 合适 的 建树 方法 和 分 析 软 
件 ， 更 进一步 说 ， 为 我 们 对 现 有 方法 的 改进 和 编写 
性 能 更 完善 的 软件 提供 思想 源 果 和 帮助 。 


1 构建 系统 发 育 树 的 一 般 过 程 


不 同 的 领域 对 树 有 不 同 的 定义 ， 下 面 简单 列举 
了 部 分 树 的 定义 及 生物 信息 中 与 系统 发 育 树 相关 











































































































































































































































































































民 据 拓扑 结构 的 不 同系 统 发 育 树 可 以 分 为 有 根 树 
和 无 根 树 。 有 根 树 (图 la) 有 一 个 根 节点 ， 代 表 
所 有 其 他 节点 的 共同 祖先 ， 从 根 节点 具有 唯一 路 径 
经 进化 到 达 其 他 任何 节点 ;无 根 树 (图 1b) KÆ 
明了 节点 之 间 的 关系 ， 没 有 进化 方向 ， 但 是 通过 引 
入 外 群 或 外 部 参考 物种 可 以 在 无 根 树 中 指派 根 节 
点 (Gregory，2008)。 
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图 1 系统 发 育 树 
Figure 1 Phylogenetic tree 
a: 有 根 树 ; b: 无 根 树 。 








a: Rooted tree; b: Unrooted tree. 





构建 系统 发 育 树 包 括 选择 同 源 序列 、 序 列 比 
对 、 计 算 推 断 进化 树 、 评 估 进 化 树 四 个 步骤。 具体 
流程 如 图 2 所 示 。 











选择 
同 源 序列 


Figure 2 Phylogenetic tree flowchart 











图 2 构建 系统 发 育 树 流程 图 

















构建 系统 发 育 树 的 第 一 步 是 选择 同 源 序列 作 
为 计算 数据 。 这 一 步 实 际 上 包含 两 个 过 程 : 一 是 收 
集 序列 数据 ， 二 是 确定 数据 的 同 源 性 。 序 列 数 据 可 
以 通过 实验 或 通过 公共 数据 库 下 载 获 得 。 目 前 公共 
数据 库 主要 有 美国 的 GenBank、 欧 洲 的 EMBL, 
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日 本 的 DDBJ 等 。 
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义 一 个 最 优化 标准 ， 对 树 的 优 劣 进 行 评 价 ， 包 括 最 














序列 比 对 提供 一 种 衡量 核酸 或 蛋白 质 序 列 之 
间 相 关 性 的 度量 方法 。 将 两 条 或 多 条 序列 写成 两 行 
或 多 行 , 使 尽 可 能 多 的 相同 字符 出 现在 同一 列 中 ,将 
不 同 序列 中 的 每 一 位 点 进行 逐一 比 对 ， 构 建 一 个 打分 
矩阵 来 表示 序列 间 的 相似 性 或 同 源 性 。DNA 序列 在 
进化 中 由 于 替换 、 插 入 /删除 、 突 变 事件 使 其 发 生 改变 ， 
所 以 在 比 对 中 ， 错 配 与 突变 相应 ， 而 空位 与 插入 或 缺 
失 对 应 。 最 常用 的 比 对 工具 有 Blast (Altschul et al, 
1990), Clustal (Larkin et al, 2007). Muscle (Edgar, 
2004) 和 FASTA (Lipman & Pearson, 1985) 等 。 
计算 推断 系统 发 育 树 的 主要 任务 是 求 出 最 优 
树 的 拓扑 结构 和 估计 分 文 长 度 。 这 部 分 算法 及 常用 
软件 在 后 面 详细 介绍 。 
评估 的 目的 是 对 已 经 得 出 的 系统 发 育 树 的 置信 
度 进行 评估 ， 常 用 的 方法 有 自 举 检验 法 (bootstrap 
methods ) (Felsenstein, 1985; Penny & Hendy, 1985) 
及 刀 切 法 (jackknife methods) (Shao & Tu, 1996). 
举 检验 法 是 从 原始 序列 中 随机 选取 碱 基 组 成 和 
原始 序列 相同 长 度 的 新 序列 ， 这 样 在 每 个 序列 中 有 
些 碱 基 被 重复 选择 ， 而 有 些 碱 基 未 被 选择 ， 按 这 样 
的 方法 取出 和 原始 数据 序列 数 相同 的 新 序列 组 成 
新 的 组 。 将 所 有 的 新 序列 组 用 某 种 算法 生成 多 个 新 
的 进化 树 。 将 生成 的 许多 进化 树 进行 比较 ， 把 所 有 
新 的 树 中 相同 拓扑 结构 最 多 的 树 认 为 是 最 真实 的 
树 ， 树 中 分 支 位 置 的 数值 表示 该 种 结构 占 所 有 树 中 


































































































































































































































































































大 简约 法 (maximum parsimony methods) (Mount, 
2008). 最 大 似 然 法 (maximum likelihood methods ) 
(Myung, 2003) 和 贝 叶 斯 法 (Bayesian methods) 
(Holder & Lewis，2003)。 距 离 法 的 理论 基础 是 最 
小 进化 原理 (minimum evolution, ME)(Saitou & Nei, 
1986)， 这 类 方法 首先 构造 一 个 距离 矩阵 来 表示 每 两 

个 物种 之 间 的 进化 距离 ， 然 后 基于 这 个 距离 矩阵 ， 
采用 聚 类 算法 对 研究 的 物种 进行 分 类 。 通 过 不 断 的 
合并 距离 最 小 的 两 个 节点 和 构建 新 的 距离 和 矩阵， 最 
终 得 出 进化 树 。 距 离 法 包括 非 加 权 组 平均 
Cunweighted pair-group method with arithmetic mean, 
UPGMA), 48 (neighbor-joining, NJ), HERA 
换 法 (transformed distance method) 和 邻接 关系 法 
(neighbors relation method) 等 (Takezaki，1998)。 
非 加 权 组 平均 法 比较 简单 , 得 出 的 系统 发 育 树 不 可 加 
和 ， 现 在 很 少 使 用 ， 常 用 邻接 法 来 构建 系统 发 育 树 。 
表 1 列 出 了 常用 构建 系统 发 育 树 的 算法 及 支持 软件 。 
2.1 邻接 法 
Kidd & Sgaramelh-Zonta (1971) 最 早 提出 基于 
距离 数据 的 系统 发 育 树 重 构 算 法 ， 从 所 有 可 能 的 进 
化 树 中 选择 进化 分 支 长 度 总 和 最 小 的 那 棵 树 ， 距 离 
法 通常 不 能 找到 精确 的 最 小 进化 树 ， 只 能 找到 近似 
的 最 小 进化 树 ， 但 是 它 的 计算 速度 非常 快 ， 而 且 准 
确 率 较 高 ， 因 此 被 广泛 应 用 于 系统 发 育 分 析 
(Zhang & Lai，2010)。 当 可 操作 单元 数量 较 多 时 ， 
























































































































































































































































的 百分比 值 ， 该 值 小 于 75 通常 都 认为 是 置信 度 较 
低 的 分 支 。 刀 切 法 是 对 原始 数据 进行 “不 放 回 式 ” 
随机 抽取 ， 从 数据 集 里 去 除 一 部 分 序列 数据 或 每 次 
去 掉 一 个 分 类 群 对 象 ， 然 后 对 剩 下 的 数据 进行 系统 
发 育 分 析 。 刀 切 法 产生 的 数据 小 于 原始 数据 ， 
(Cdelete-half-jackknifing) (Felsenstein, 1985; Wu, 
1986)。 两 类 检测 方法 的 差别 在 于 ， 前 者 是 对 全 部 
数据 进行 “ 重 置式 ”随机 抽取 ， 数 据 抽 到 的 概率 是 
相等 的 ， 且 建立 的 和 原始 数据 大 小 相等 ， 而 后 者 是 
“不 放 回 式 ” 抽 取 ， 产 生 的 数据 小 于 原始 数据 。 


2 构建 系统 发 育 树 常 用 算法 原理 


基于 分 子 水 平 的 系统 发 育 推断 方法 可 以 分 为 
两 大 类 ， 即 基于 离散 特征 的 方法 和 基于 距离 的 方 
法 。 基 于 离散 特征 的 系统 发 育 树 重 构 算法 通过 搜索 
各 种 可 能 的 树 ， 从 中 选 出 最 能 够 解释 物种 之 间 进 化 
关系 的 系统 发 育 关 系 树 ， 这 类 方法 利用 统计 技术 定 






















































































































































































这 种 方法 的 计算 量 会 大 增 ， 因 此 ， 又 提出 了 启发 式 
搜索 算法 (Mucherino & Seref, 2009): 从 一 个 距离 
矩阵 开始 ， 采 用 一 定 的 准则 ， 递 归 地 合并 和 矩阵 中 距 
离 最 短 的 节点 ， 并 重 构 新 的 距离 矩阵 ， 直 到 只 剩 下 
最 后 一 个 分 类 单元 为 止 。 其 中 最 常用 的 是 邻接 法 
(Saitou & Nei，1986)。 下 面 举例 说 明 邻 接 法 重建 

系统 发 育 树 的 过 程 。 假 设 有 以 下 5 组 同 源 序列 : 

S1: GTGCTGCACGGCTCAGTATAGCATTTA 
CCCTTCCATCTTCAGATCCTGAA 

S2: ACGCTGCACGGCTCAGTGCGGTGCTTA 
CCCTCCCATCTTCAGATCCTGAA 

S3: GITGCTGCACGGCTCGGCGCAGCATTTAC 
CCTCCCATCTTCAGATCCTATC 

54: GIATCACACGACTCAGCGCAGCATTTGC 
CCTCCCGTCTTCAGATCCTAAA 

S5: GTATCACATAGCTCAGCGCAGCATTTG 
CCCTCCCGTCTTCAGATCTAAAA 
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表 1 系统 发 育 树 常用 算法 及 支持 软件 
Table 1 Frequently-used algorithms and software for phylogeny reconstruction 
(http://evolution.genetics.washington.edu/ phylip/software.html) 
方法 简介 特点 支持 软件 
Methods Description Characteristics Supporting software 
距离 法 首先 计算 两 两 序列 之 间 的 ”属于 距离 矩阵 法 算法 简单 易 ”PHYLIP; PAUP*; MEGA; MacT; ODEN; MVSP; PAL; gmaes; 
Distance 距离 矩阵 ， 不 断 重复 合并 距 ” 懂 ， 计 算 速度 较 快 。 DISPAN; GDA; TREECON; RESTSITE; TCS; NTSYSpc; 
methods 离 最 短 的 两 个 序列 ， 最 终 构 METREE; SeqPup; PTP; PHYLTEST; Lintre; Phylo_win; 
出 最 优 树 DAMBE; Bionumerics; qclust; ARB; POPTREE2; Gambit; 
= j DENDRON; BIONJ; TFPGA; APE; Darwin; sendbs; nneighbor; 
weighbor; DNASIS; MINSPNET; Arlequin; PEBBLE; HY-PHY; 
Vanilla; GelCompar; Populations; Winboot; SYN-TAX; SplitsTree; 
FastME; MacVector; QuickTree 
最 大 简约 法 方法 关键 是 找 信息 位 点 ， 不 用 计算 序列 之 间 的 距离 ， Phylip; Paup*; Mega; PaupUp; Hennig86; RA; TCS; NONA; 
Maximum 最 多 信息 位 点 支持 的 那 “大 多 数 简约 法 的 算法 及 程序 CAFCA; Phylo_win; sog; gmaes; LVB; GeneTree ARB; DAMBE; 
parsimony 个 树 就 是 最 大 简约 树 。 比较 成 熟 ,要 求 对 比 序列 相似 MALIGN POY; Gambit; TNT GelCompar II; Bionumerics Network; 
methods 性 很 大 ， 否 则 推断 出 的 系统 GAPars; CRANN 
发 育 树 可 信 度 低 于 NJ 法 和 
ML 法 。 存 在 NP -complete 
问题 。 
最 大 似 然 法 完全 基于 统计 的 系统 发 生 ”计算 复杂 , 当 数 据 量 大 时 被 ”PHYLIP; PAUP* (rat) , fastDNAml; MOLPHY; PAML; Spectrum; 
Maximum 法 。 该 法 在 每 组 序 ”认为 是 NP complete 问题 。 SplitsTree; TREE-PUZZLE; SeqPup; Phylo_ win; PASSML; ARB; 
likelihood Bi EE EE TET Sh ee TERA Darwin; Modeltest; DAMBE; PAL; dnarates; HY-PHY; Vanilla; p4; 
methods > AR He tye Hp Bk Saree a u Arhi ZEL FE sit Mac5;DT-ModSel; Bionumerics; fastDNAmlRev; RevDNArates; 
et slat a a abe oa | 二 ts rate-evolution; CONSEL; EDIBLE; PLATO; Mesquite; PTP; 
ae ten ge ces se ioc ee bee He FIRK Treefinder; MetaPIGA; RAxML; PHYML,; r8s-bootstrap; MrMTgui; 
真实 的 系统 发 生 树 。 情况 。 MrModeltest; BootPHYML: PARBOOT; Porn*; SIMMAP; 
Spectronet; Rhino; TipDate; ProtTest; ModelGenerator; Simplot; 
MrAIC; Modelfit; IQPNNI; PARAT; ALIFRITZ; PhyNav; DPRML; 
MultiPhyl; NimbleTree; PaupUp; SSA; CoMET; BIRCH; Kakusan4; 
GARLI; PHYSIG; SEMPHY; FASTML; Rate4Site; aLRT; McRate; 
EREM; PROCOV; DART; PhyloCoCo; PRAP; SeqState; Leaphy; 
NHML; SLR; rRNA phylogeny; Bosque; Concaterpillar; 
PHYLLAB; NEPAL; EMBOSS; CodeAxe; phangorn; Bio++; 
FastTree; nhPhyML; PhyML-Multi; Segminator; raxmlGUI; 
MixtureTree; SeaView; GZ-Gamma; Crux 
贝 叶 斯 法 和 极 大 似 然 法 相反 ， 此 方法 “基于 后 验 概 率 进 行进 化 分 BAMBE; PAL; Vanilla; MrBayes; Mesquite; PHASE; BEAST; 
Bayesian 在 给 定 序 列 组 成 的 条 件 下 ， 析 ， 建 立 在 比 对 序列 的 条 MrBayes tree scanners; p4; SIMMAP; IMa2; BALi-Phy; 
methods 计算 进化 树 和 进化 模型 的 “ 件 下 ， 进 化 树 结构 发 生 的 BayesPhylogenies; MrBayesPlugin; PhyloBayes; PHASE; Cadence; 
概率 ， 常 采 (MCMC) 条 件 概率 存在 NP T. Multidivtime; BEST; AMBIORE; PHYLLAB; bms_runner; tracer; 
APEM AN ARTE MA Pio TF Ce “com- purntrees Biot +; Crux; ANC-GENE 
方法 。 plete 问题 。 
* 代 表 商 业 软 件 。 


*Refers to the commercial software. 











以 上 5 个 序列 中 每 个 序列 都 含有 50 个 碱 基 ， 所 有 的 O 值 ， 见 表 5。 
































(这 里 忽略 删除 和 插入 事件 )。 则 每 次 聚 类 可 得 出 Table 2 Pairwise distance matrix 
距离 矩阵 如 表 2、3、4 所 示 。 根据 公式 1 序列 Sequence SI S2 S3 S4 
n n S2 9 
O,=(n-2)dy-Yidu-Did» O10 he : i 
k=1 k=1 
、 5 Spi <i S4 12 15 10 
求 出 2 ARP n 为 物种 个 数 或 序列 个 数 ,在 n 
SS 15 18 13 5 




















个 序列 组 成 的 所 有 可 能 的 无 根 树 中 找 出 O 值 最 小 
的 两 个 序列 组 成 邻近 关系 ， 重 新 构建 距离 矩阵 ， 





S1, S2, S3, S4, S5 为 核 苷 酸 或 氨基 酸 序列 。 
S1, S2, S3, S4, S5 refer to Nucleotide and amino acid sequences. 
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据 新 的 距离 矩阵 再 找 最 小 的 2 值 组 成 一 组 ， 反 复 
上 面 的 过 程 直到 所 有 的 序列 都 找到 了 自己 的 邻居 HK 5 可 推断 出 5 条 序列 的 系统 发 育 树 拓 
(Studier 多 Keppler，1988)。 根 据 表 2、3、4 求 出 扑 图 和 各 分 支 长 度 分 别 如 图 3 和 图 4 所 示 : 
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表 3 第 一 次 聚 类 得 到 的 距离 矩阵 
Table 3 Distance matrix after the first clustering 





序列 Sequence S1 52 S3 
S2 9 
S3 8 11 
S45 13.5 16.5 11.5 


S1, S2, S3, S45 为 核 背 酸 或 氨基 酸 序列 。 
S1, S2, 93, S45 refer to Nucleotide and amino acid sequences. 
表 4 第 二 次 聚 类 得 到 的 距离 矩阵 
Table 4 Distance matrix after the second clustering 





序列 Sequence S12 S3 
S3 9.5 
S45 15 11.5 





S12, S3, S45 为 建树 核 昔 酸 或 氨基 酸 序列 。 
S12, S3, S45 refer to nucleotide and amino acid sequences. 
表 5 Studier J 和 Keppler K 方法 得 到 的 Q 值 表 
Table 5 Q value from Studier J and Keppler K 
第 三 轮 Third round 


第 一 轮 First round 第 二 轮 Second round 





Q12=-70 Q12=-40 Q (12) 3=-37 
Q13=-59 Q13=-37 Q (12) (45) =6 
Q14=-50 Q1 (45) =-31.5 Q3 (45) =-16.5 
Q15=-46 023=-34 
023=-62 Q2 (45) =-28.5 
024=-50 Q3 (45) =-37.5 
025=-50 
034=-56 
035=-56 
045=-78 
最 小 045 最 小 O12 最 小 Q (12) 3 
S1 
$2 
$3 
S4 
s5 











图 3 NI 算法 得 到 的 系统 发 育 树 拓扑 图 
Figure 3 Topology of Phylogenetic Tree with NJ Approach 























图 4 估计 各 分 支 长 度 
Figure 4 Branch-Length Estimation 























随后 的 研究 在 邻接 法 基础 上 又 提出 了 很 多 改 
进 算法 : Studier & Keppler (1988) 提出 的 改进 算法 ， 
引入 了 线性 数组 的 概念 ， 大 幅 降低 了 计算 的 时 间 复 
杂 度 (Chen et al, 2006); Bruno et al (2000) 提出 
了 加 权 邻 接 法 (weighted neighbor-joining) 算法 、 
Gascuel (1997) 提出 了 BIONJ 算法 、Desper & 
Gascuel (2012) 提出 的 FASTME 算法 和 Criscuolo 
& Gascuel (2008) 提出 了 快速 邻接 法 算法 ， 均 缩短 
了 建立 系统 发 育 树 的 时 间 。 距 离 法 速度 快 ， 适 合 于 
大 型 数据 集 和 自 举 分 析 , 允 许 不 同 序 列 间 有 不 同 的 
分 支 长 度 ,允许 多 重 替 换 ， 但 当 序 列 差 异 很 大 时 ， 转 
换 成 距离 矩阵 会 使 序列 信息 减少 ， 而 且 距 离 法 只 提 
供 一 棵 可 能 的 树 ， 并 对 模型 的 依赖 比较 强烈 。 

2.2 最 大 简约 法 

最 大 简约 法 是 基于 奥 卡 姆 剃刀 原则 (Occam's 
razor) 而 发 展 起 来 的 一 种 进化 树 重 构 的 方法 ， 即 突 
变 越 少 的 进化 关系 就 越 有 可 能 是 物种 之 间 的 真实 
的 进化 关系 ， 系 统 发 生 突变 越 少 得 到 的 系统 发 生 结 
论 就 越 可 信 (Sober，1988)。 最 大 简约 法 首先 是 由 
Camin & Sokal (1965 ) 提 出 来 的 ,经 过 Hein (1990, 
1993) 的 研究 发 展 使 得 用 最 大 简约 法 来 建立 进化 树 
得 到 极 大 的 发 展 及 应 用 。 

最 大 简约 法 采用 5 个 假设 (Felsenstein, 1978, 
1979, 198la,b): (1) 序列 中 的 每 个 位 点 独立 进化 ; 
(2) 不 同 世系 Cineage) 独立 进化 ; (3) 序列 上 的 
位 点 《〈 碱 基 或 氨基 酸 ) 的 替换 概率 小 于 该 分 枝 系统 
发 生 时 间 的 长 度 (4) 系统 发 生 的 不 同 分 支 改变 有 
不 同 ， 但 高 变化 率 的 分 支 和 低 变 化 率 的 分 支 间 的 变 
化 大 小 不 会 相差 很 大 ; (5) 位 点 间 变 化 不 会 相差 太 
大 。 一 个 位 点 的 删除 和 插入 各 算 一 个 变化 ， 当 然 连 
续 的 删除 N 个 位 点 ， 应 该 算 作 独 立 的 N 个 事件 。 
用 简约 法 推断 系统 发 生 关系 ， 首 先 判断 信息 位 
点 。 信 息 位 点 是 那些 产生 突变 能 把 其 中 的 一 棵 树 同 
其 他 树 区 别 开 来 的 位 点 。 如 果 一 个 位 点 是 信息 位 
点 ， 那 么 该 位 点 至 少 有 两 种 以 上 的 核 苷 酸 ， 并 且 每 
种 核 背 酸 至 少 出 现 两 次 ( 见 表 6)。 简 约法 中 只 考虑 
信息 位 点 而 不 考虑 非 信息 位 点 。 

其 次 确定 每 棵 树 的 替换 数目 (Fitch, 1971). 
这 里 以 3 棵 树 为 例 来 说 明 构 建 过 程 ， 如 图 5。 要 确 
定 每 棵 树 的 替换 数目 ， 就 要 从 5 个 已 知 的 外 部 节 
点 上 的 核 苷 酸 推断 出 4 个 内 部 节点 上 最 可 能 的 核 
昔 酸 。 寻 找 内 部 节点 的 算法 如 下 : 如 果 一 个 内 部 节 
点 的 两 个 直接 后 代 节 点 上 的 核 苷 酸 的 交集 为 非 空 ， 
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表 6 4 条 同 源 序列 的 比 对 


Table6 4Homology sequences alignment 

















位 置 Site 
序列 Sequence 1 2 3 4 5* 6* 
1 C G A C G A 
2 C G A C G 工 
3 C G A C A A 
4 C T G A A T 
* 标 注 为 信息 位 点 ， 其 余 4 个 位 点 为 非 信息 位 点 。 


*Refers to informative site, remaining four sites are Non-informative site. 


9(GAT) 9(GAT) 9(GA) 
8(GA), 
&(GA 7 8(G) 
(A) 7(A) 
OGY 7 (A) 6(G) 6(G) 


© Rosaa sls aa 165 23A A 
a 


图 5 3 棵 有 根 树 及 内 部 节点 


Figure 5 Three rooted trees and internal nodes 

















那么 这 个 节点 的 最 可 能 的 候选 核 苷 酸 就 是 这 个 交 
集 ; 否则 为 它 的 两 个 后 代 节 点 上 核 芽 酸 的 并 集 。 当 
一 个 并 集成 为 一 个 节点 的 核 音 酸 集 时 ， 通 向 该 节点 
的 分 文 的 某 个 位 置 必定 发 生 一 个 核 昔 酸 蔡 换 。 故 而 
并 集中 核 音 酸 的 数目 也 是 生成 外 部 节点 上 的 核 音 
酸 的 最 小 替换 数 ， 外 部 节点 从 它们 的 共同 祖先 出 
发 ， 通 过 这 些 替 换 ， 形 成 当前 的 核 昔 酸 状态 。 找 好 
内 部 节点 后 ， 即 可 计算 该 内 部 节点 后 代 的 替换 数 。 
计算 信息 位 点 的 蔡 换 数 ， 是 通过 计算 外 部 节点 上 不 
同 核 苷 酸 的 数目 减 去 1 即 可 得 到 。 考 虑 所 有 可 能 
的 树 ， 分 别 对 每 棵 树 中 的 变化 打分 ， 统 计 每 个 位 点 
的 核 昔 酸 最 小 蔡 换 数目 ， 所 有 信息 位 点 替换 数 的 总 
和 最 小 的 树 即 为 最 简约 树 。 

随 着 序列 数量 的 增加 ， 可 能 的 树 的 拓扑 结构 呈 
现 爆炸 性 增加 如 10 个 物种 , 存在 34 459425 要 
可 能 的 无 根 树 [Cn- 5)4= -2 一 人 >, ata pix 

(n—2)!2 
些 可 能 的 树 的 拓扑 结构 ， 计 算出 最 小 替换 数 而 找到 
最 简约 树 ， 无 疑 计算 量 是 相当 庞大 的 。 对 序列 数据 
集 较 多 的 建树 ， 一 般 选 用 分 文 约束 算法 (branch- 
and-bound algorithm) (Land & Doig, 1960) 和 启发 
式 算法 (heuristic algorithm) (Mucherino & Seref, 
2009) 进行 树 的 拓扑 结构 查找 。 

分 文 约束 算法 查找 的 树 ， 首 先是 从 只 有 两 个 物 
种 组 成 的 树 开始 (如 果 是 无 根 树 ， 从 3 个 物种 的 树 
始 ); 其 次 程序 试 着 在 合适 的 位 置 增加 下 一 个 物 
种 ， 并 对 增加 物种 后 的 树 进 行 特 换 数 目的 评价 ， 达 
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代 直 到 将 所 有 的 物种 都 加 到 树 上 。 它 是 一 个 深度 优 
先 搜寻 的 过 程 (depth-first search) (Even & Even, 
2011)。 首 先 把 第 三 个 物种 加 在 第 一 个 可 能 的 位 置 ， 
这 时 第 四 个 物种 加 在 它 的 第 一 个 可 能 的 位 置 ， 再 次 
是 第 五 个 物种 ， 依 次 遍历 直到 树 的 第 一 个 可 能 的 树 
产生 。 对 树 的 步 数 进行 衡量 。 改 变 物种 的 位 置 ， 
到 遍历 所 有 的 位 置 。 四 棵 树 的 深度 优先 搜寻 的 过 程 
如 下 : 

















































































































































































































首先 建立 两 个 物种 的 树 : (A,B) 

把 C 加 到 第 一 个 可 能 的 位 置 : ((A.B) ,C) 

把 D 加 到 第 一 个 可 能 的 位 置 :(((A,D) ,B) ,C) 
把 D 加 到 第 二 个 可 能 的 位 置 :((A, (B,D)) ,C) 
把 D 加 到 第 三 个 可 能 的 位 置 : (((A,B) ,D) ,C) 
把 D 加 到 第 四 个 可 能 的 位 置 : ((AB) , (C,D)) 
把 D 加 到 第 五 个 可 能 的 位 置 : (((A,B) ,C) ,D) 
把 C 加 到 第 二 个 可 能 的 位 置 : ((A,C) ,B) 

把 D 加 到 第 一 个 可 能 的 位 置 : (((A.D) ,C) ,B) 
把 D 加 到 第 二 个 可 能 的 位 置 : CCA, (C,D)) ,B) 
把 D 加 到 第 三 个 可 能 的 位 置 : (((A,C) ,D) ,B) 
把 D 加 到 第 四 个 可 能 的 位 置 : ((A,C) , (B,D)) 
把 D 加 到 第 五 个 位 置 :(((A,C) ,B) ,D) 

把 C 加 到 第 三 个 可 能 的 位 置 :(A, (B,C)) 

把 D 加 到 第 一 个 可 能 的 位 置 : ((A,D) , (B,C)) 
把 D 加 到 第 二 个 可 能 的 位 置 : (A,，((CB,D) ,C)) 
把 D 加 到 第 三 个 可 能 的 位 置 : (A，(B,(C,.D))) 
把 D 加 到 第 四 个 可 能 的 位 置 : (A, ((B,C) ,D)) 
把 D 加 到 第 五 个 可 能 的 位 置 : ((A,(B,C)) ,D) 
如 上 所 示 ， 深 度 优先 搜寻 也 只 不 过 是 另外 一 





种 一 次 产生 所 有 可 能 的 树 的 算法 。 即 使 物种 数量 
中 等 ， 生 成 的 可 能 树 的 数量 也 是 非常 大 的 。 当 然 
这 种 情况 实际 中 是 不 会 发 生 的 ， 因 为 树 会 以 一 个 
特定 的 顺序 生成 ， 一 些 可 能 树 的 拓扑 结构 是 不 会 
产生 的 。 分 支 约 束 算 法 也 是 由 这 些 深 度 优 先 搜 索 
步骤 组 成 ， 只 不 过 有 一 点 改变 ， 在 树 的 构建 过 程 
中 ， 部 分 树 如 (A, (B,C)) 的 步 数 也 被 衡量 。 增 
加 物种 ， 预 测 会 增加 的 步 数 ， 取 增加 步 数 的 位 置 
为 增加 的 物种 所 在 位 置 。 分 支 约 束 算法 会 计算 增 
加 物种 后 不 变 的 位 点 数量 和 变化 的 位 点 数量 。 因 
而 如 果 ALB AIC 及 根 有 20 个 可 变 的 位 点 ， 且 如 
果树 ((A,C),B) 要 求 24 步 , 当 D 增加 有 8 个 
可 变 位 点 ， 那 么 ， 无 论 D 加 到 哪个 位 置 ， 最 终 
的 树 都 不 会 少 于 32 步 。 如 果 发 现 树 CCA,B) ， 
(C,D)) 仅仅 只 有 30 步 ， 那 么 我 们 就 可 以 确定 
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((A,C) B) 上 没有 位 置 可 以 让 D Ik. 7M 
约束 算法 会 保留 一 个 最 简约 树 列表 ， 这 样 就 可 以 
砍 掉 一 部 分 ， 从 而 避免 一 些 可 能 的 特定 的 树 的 分 
支 生 成 。 因 而 分 支 约束 算法 能 让 我 们 不 必 生 成 所 
有 可 能 的 树 而 又 能 得 到 最 简约 的 树 ， 从 而 减少 计 
算 时 间 。 

启发 式 搜 索 算 法 通过 子 树 分 支 交 换 (branch 
swapping), 把 分 支 嫁 接 到 此 步 分 析 中 找到 的 最 好 的 
那 棵 树 的 其 他 位 置 ， 而 产生 一 棵 拓扑 结构 和 初始 树 
相似 的 树 〈 见 图 6)。 



















































































3 4 7 
5 1 
wa 6 “> 6 
剪除 17 2 


图 6 启发 式 搜索 剪除 与 嫁接 


Figure 6 Pruning and grafting of heuristic search 











对 于 有 7 条 序列 的 启发 式 搜索 在 第 一 轮 会 产生 
上 百 棵 新 树 ， 计 算 突 变数 总 和 ， 其 中 比 初始 树 突变 
数 更 少 的 新 树 被 保留 并 在 第 二 轮 分 析 中 被 剪除 和 
嫁接 。 重 复 这 个 过 程 ， 直 到 无 法 再 产生 比 前 一 轮 总 
突变 数 更 少 的 树 ， 则 此 树 为 最 简约 树 。 启 发 式 搜索 
能 大 大 减少 查找 的 可 能 树 的 数量 ， 从 而 解决 对 大 量 
数据 搜索 树 的 数量 过 大 的 问题 。 

最 大 简约 法 可 能 会 产生 多 棵 简约 树 ， 此 时 通 
常 选取 一 棵 能 概括 这 些 简 约 树 的 一 致 树 (conse- 
nsus tree) 作为 代表 (Taylor et al，2011)。 这 种 做 
法 是 将 所 有 树 中 都 一 致 的 分 支点 作为 二 又 分 文 
点 ， 不 一 致 的 分 文 点 变 为 连接 多 个 分 支 的 内 部 节 


点 《如 图 7)。 
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(B) 一 致 树 
和 7 ”三 个 简约 树 对 应 的 一 致 树 


Figure 7 Consensus tree form three MP trees 














2.3 ”最 大 似 然 估计 法 
一 般 来 讲 ， 如 果 模 型 合适 ， 最 大 似 然 法 的 效果 
较 好 。 最 大 似 然 法 根据 特定 的 “ 蔡 代 模型 ” 
(substitution model) 分 析 既 定 的 一 组 序列 数据 , 使 
所 获得 的 每 一 个 拓扑 结构 的 似 然 值 最 大 。 选 出 最 大 
似 然 值 最 大 的 拓扑 结构 作为 最 优 系统 树 。 其 分 析 的 
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核心 在 于 替代 模型 ， 常 用 的 有 Jukes-Cantor 模型 
(Jukes & Cantor, 1969), Kimura 双 参 数 模型 
(Kimura, 1980) 等 。 算 法 要 求 所 有 分 类 单元 有 完 
整 的 DNA 序列 数据 (如 果 有 缺失 则 不 计算 )， 在 
运算 过 程 中 仅 考 虑 碱 基 取 代 而 忽略 缺失 /插入 , 算法 
相对 费时 。 

在 最 大 似 然 算法 中 ， 考 虑 拓扑 结构 和 极 长 两 个 
参数 ， 并 对 似 然 率 求 最 大 值 来 估计 枝 长 。 算 法 基于 
统计 特性 ， 有 很 好 的 数学 理论 文 持 。 在 进化 速率 可 
变 的 假设 下 ， 最 大 简约 法 略 差 于 转换 距离 法 和 邻接 
法 的 结果 ， 最 大 似 然 法 的 结果 最 优 〈Zhong et al, 
2001)。 也 就 是 说 极 大 似 然 算法 允许 各 分 文 进化 速 
率 不 同 。 极 大 似 然 算 法 原理 如 下 : 似 然 函数 ， 给 定 
进化 模型 M, 模型 的 K 个 参数 , 进化 树 拓扑 结构 ， 


枝 长 ， 当 前 序列 出 现 的 可 能 性 : L=P(DIM ,6,10) 
如 何 取 这 些 参数 ， 使 得 该 序列 出 现 的 可 能 性 最 大 ， 
BW: 0,7,7 = max L(9,t,v) « 有 4 个 DNA 序列 w, 























































































































x. ys z WE 7 所 示 ; 4 个 序列 可 能 的 拓扑 结构 
如 图 9 所 示 ， 其 拓扑 共有 3 种 《以 图 8 中 椭圆 包 
含 的 碱 基 序 列 ( 第 6 列 ) 为 例 )，TTAG 序列 可 能 
的 进化 通路 如 图 9 所 示 ， 图 形 为 有 根 树 。 






















































































Sequence WA CGCfTITGGG 
Sequence X: ACGCGTTGGC 
Sequence Y: ACGC AITGAA 
Sequence Z:ACACGIGTGAA 





图 8 4^ DNA 序列 
Figure 8 Four DNA sequences 


WXYZ WYXZ WZXY 








图 9 4 个 DNA 序列 可 能 的 拓扑 结构 
Figure9 Allpossible trees come from four DNA sequences 








因为 有 3 个 节点 ， 每 个 节点 可 能 的 值 是 

ATGC， 所 以 有 4°=64 个 通路 。 

L (第 6 列 ) =SUML (所 有 可 能 的 进化 路 径 ) 
=L (路 径 1) +L (路 径 2) +L UK 
径 3) +... +L (路径 64) 

图 10 中 节点 1、2、3、4 为 叶子 节点 , 5、6 为 

内 部 节点 ，0 为 根 节点 ，v 为 枝 长 ， 是 进化 树 的 参 

数 ， 参 数 的 值 由 似 然 函 数 通 过 观察 到 的 序列 来 估 

计 。 节 点 K 的 似 然 函 数 : 
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Ly = Sx0Pcoxs (vs )Psa i )P.sx2 M )P.ox6 (ve) 
P 6x3 (%3) Peoxa (V4) 


其 中 gx 表示 节点 0 为 核 背 酸 xo 时 的 先 验 概 
率 ， 常 常 等 于 核 苷 酸 在 整个 序列 中 的 相对 频率 ， 
它 可 以 用 ML 法 来 估计 。P O) 为 给 定位 点 在 
时 间 0 时 的 核 苷 酸 i 到 时 间 上 ARR j 的 
WS, i, 7 A T G C 的 任 一 种 ， 在 ML 算法 
中 允许 各 分 支 的 末代 速率 x 不 同 ， 用 vi rti RK 
WE i 个 分 支 的 预期 蔡 代 数 。 计 算 Py O) 需要 
使 用 特定 的 替换 模型 。 
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Felsenstein (Felsenstein, 



































198la) 使 用 了 等 输入 模型 。 在 此 模型 中 Pr Cv) 
和 Pi Cv) 为 : 

py) =g; +(l-g;)e”, (i=j) (2) 

PpP;©)=g;l-e”) (i=j) (3) 


IK 


g=1/4, v=4rt 时 , 上 述 模 型 演变 为 Jukes-Cantor 
模型 。 针 对 不 同类 型 的 数据 选择 合适 的 模型 可 以 增 
加 准确 度 。 以 上 过 程 分 析 了 有 根 树 的 算法 ， 如 果 使 
用 一 个 可 逆 模 型 ， 即 不 论 向 前 还 是 向 后 进化 核 苷 酸 
的 替代 过 程 不 变 。 用 数学 表述 为 : 


gby (v) = giPi (v) (4) 


这 样 节点 5 和 6 OZ TA) AY E R PK A 
(vstve) 恒定 而 与 根 节 点 0 的 位 置 无 关 。 计 算 Ly 
时 ,指定 图 10 的 vstve 为 vs， 并 假设 进化 开始 于 
该 树 的 某 一 点 ， 为 方便 起 见 ， 假 定 从 节点 5 开始 ， 
大 大 简化 了 树 的 复杂 度 ， 具 体 如 图 11 所 示 。 这 样 
1 就 可 以 简化 为 : 
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NU f v AVA 
ATGC ATGC 
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ATGC 
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图 10 TTAG 可 能 的 进化 通路 图 
Figure 10 The evolutionary pathway of TTAG 


























图 11 有 根 树 转 为 无 根 树 


Figure 11 Rooted tree into a unrooted tree 





Ly = gsPsa 01 )Besx2 V2) P5265) Pe V3) Proxa (V4) 


(5) 

BI HERAT AE -NAERMA TERE SE 

树 过 程 中 我 们 必须 考虑 包括 不 变 位 点 在 内 的 所 有 

核 音 酸 位 点 。 整 个 序列 的 似 然 率 L 是 对 所 有 位 点 
的 Le 求 积 ， 整 个 树 的 似 然 率 对 数 为 : 





























InL= SL, (6) 
k=l 

通过 改变 参数 Vo 使 InL 最 大 化 , 计算 方法 可 
以 使 用 Newton 方法 或 其 他 数值 计算 方法 实现 。 最 
后 选 出 似 然 值 最 大 的 拓扑 结构 作为 最 优 系统 树 。 
2.4 贝 叶 斯 算法 
基于 统计 学 规律 运作 的 算法 还 有 贝 叶 斯 算法 ， 
与 极 大 似 然 估计 算法 不 同 的 是 ， 后 者 指定 树 的 结构 
和 进化 模型 ， 计 算 序 列 组 成 的 概率 ， 从 而 推断 出 对 
应 的 进化 树 。 前 者 正好 相反 , 是 由 给 定 的 序列 组 成 ， 
计算 进化 树 和 进化 模型 的 概率 。 
P(T,0)x P(D|T,@) 

P(D) 

其 中 ， P,O 为 给 定 的 树 T 和 参数 9 的 先 验 概 率 / 
边缘 概率 ， 是 不 考虑 序列 时 的 概率 。 P, 0D) H 
给 定 序列 下 的 后 验 概率 ，P(D|7,0) 为 给 定 的 树 7 
和 参数 9 的 似 然 值 , 分 母 P(D) 是 一 正则 化 常数 。 该 
定理 表明 后 验 信息 可 由 前 验 信息 和 碱 
基 序 列 信息 所 得 (Yang & Rannala，2012)。 具 
体 原理 如 图 12 所 示 。 
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P(T,0|D) = (7) 
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乙 ” 先 验 分 布 


4 DATA(DNA sequence) 4 


W Y. W W 


说 H 
05 4 后 验 分 布 
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图 12 贝 叶 斯 算法 进化 树 原理 图 


Figure 12 Schematic of phylogenetic tree from 





























Bayesian algorithm 


开始 不 知道 树 的 概率 ， 先 假设 每 棵 树 的 可 能 性 
都 是 相等 的 , 将 DNA 序列 信息 和 进化 模型 代入 贝 
叶 斯 公式 计算 每 棵 树 的 可 能 性 ， 取 概率 最 大 者 为 最 
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后 的 进化 树 。 图 12 的 拓扑 中 CX, CYW) 的 进化 
树 概 率 最 大 ， 所 以 为 最 后 的 进化 树 。 每 个 系统 树 的 
拓扑 结构 分 布 在 不 同 区 间 ; 每 棵 树 的 位 置 受到 拓扑 
结构 及 枝 长 的 影响 (Sanmartin et al，2008)。 对 系 
统 发 生 问题 ， 难 以 得 到 各 概率 的 解析 解 ， 现 有 的 解 
决 办 法 主要 是 MCMC (Markov chain monte carlo 
sampling) 方法 。 将 进化 树 〈 拓 扑 结构 与 进化 模型 
参数 ) 转换 为 马尔 科 夫 链 ， 待 马尔 科 夫 链 收敛 于 后 
验 概率 分 布 即 可 。 
25 系统 发 育 树 重建 常用 的 软件 包 介绍 

目前 有 很 多 软件 包 可 以 进行 系统 发 生 树 推断 
及 可 靠 性 检验 ， 还 有 像 Unifrac 和 ITOL (interactive 
tree of life) 等 在 线 画 树 和 分 析 树 的 工具 。 网 站 
http://evolution.genetics.washington.edu/phylip/softw 
are.html 列 出 了 150 多 种 相关 软件 包 , 并 可 以 对 软件 
进行 按 类 别 查询 ， 如 按 软件 的 运行 系统 、 使 用 的 算 
法 等 进行 查询 ， 对 软件 进行 简单 介绍 同时 提供 了 下 
载 的 链接 。 具 体 使 用 时 可 按 需 求 用 不 同 的 软件 ， 这 
里 简单 介绍 3 种 最 常用 的 软件 。 
2.5.1 PHYLIP 

PHYLIP (phylogeny inference package) 是 由 
美国 华盛顿 大 学 Felsenstein 用 C 语言 编写 的 系 
统 发 生 推 师 软件 包 , 它 提供 免费 的 源 代码 ， 支 持 
Windows 和 Linux 等 多 种 系统 。 在 3.69 版 本 中 ， 
35 个 子 程序 组 成 ， 可 以 实现 最 大 似 然 法 、 最 大 
简约 法 和 距离 法 建树 。 最 大 似 然 法 有 两 类 程序 : 带 
生物 钟 的 建树 子 程序 (dnamlk、promlk)， 可 对 进化 
似 然 距 离 进 行 估计 ; 不 带 生 物 钟 建树 程序 (dnaml、 
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树 的 构建 (consensus)， 以 及 树 的 重 构 Cretree) 等 
等 。 唯 一 不 方便 的 是 该 程序 包 基 于 命令 行 形式 ， 操 
作 界 面 不 够 友好 。 
2.5.2 MEGA 

MEGA ( molecular evolutionary genetics 
analysis) 是 由 美国 宾夕法尼亚 州立 大 学 Masatoshi 
Nei 等 编号 的 进行 分 子 进 化 遗传 分 析 的 软件 包 。 目 
前 最 新 的 版 本 为 5.0。 它 能 对 核酸 序列 及 氨基 酸 序 
列 进行 系统 发 生 分 析 。 在 建树 方法 上 ,提供 了 距离 法 
中 的 非 加 权 组 平均 和 邻接 法 及 MP 法 , 5.0 版 本 还 
提供 了 最 大 似 然 法 算法 ， 对 构建 的 树 可 进行 自 举 检 
验 及 标准 误 估计 的 可 靠 性 检验 ， 并 提供 分 析 报 告 。 
该 软件 不 仅 可 以 对 本 地 序列 文件 进行 分 析 ， 而 且 可 
Web 在 线 搜索 分 析 , 可 以 分 析 NCBI 数据 库 中 的 序 
列 文件 来 重建 进化 树 。 该 软件 可 画 出 矩形 、 三 角形 、 
圆 形 等 多 种 形状 的 系统 发 育 树 。 
2.5.3 MrBayes 

MrBayes (Bayesian inference of phylogeny) 是 

John Huelsenbeck 等 编写 ， 使 用 马尔 可 夫 链 方法 
来 估计 参数 模型 的 后 验 概 率 分 布 。 该 软件 采用 命令 
行 形式 ,支持 Windows 和 UNIX 等 多 种 系统 ,能 
够 处 理 核 昔 酸 、 氨 基 酸 、 限 制 性 酶 切 位 点 和 形态 数 
据 等 多 种 数据 ， 同 时 集成 了 多 物种 淹 祖 算法 ， 支 持 
正 向 、 负 向 和 总 线形 拓扑 结构 ， 支 持 BEAGLE 数 
据 库 ， 在 使 用 兼容 的 便 件 (NVIDIA 图 形 卡 〉 条件 
下 可 以 提高 运行 速度 。 表 7 列 出 了 常用 的 建树 软 
件 及 其 特点 。 

当 序 列 间 的 分 歧 度 不 高 ， 且 序列 足够 长 时 ， 久 

















































































































































































































































































































proml ) 。 最 大 简约 法 也 有 带 分 子 钟 建树 子 程序 
(dnapennys)， 可 以 对 进化 距离 进行 估计 ; 和 不 带 
生物 钟 的 建树 子 程序 (dnapars、protpars )。 距 离 法 
建树 由 dnadist、prodist、fitch、kitsch、neighbor 等 
子 程序 组 成 ，dnadist 和 prodist 可 实现 F84、 
Kimura、Jukes-Cantor、LogDet 模型 计算 距离 矩阵 ， 
fitch 子 程序 可 实现 不 带 分 子 钟 的 Fitch-Margoliash 
法 画 树 ， 而 neighbor 子 程序 带 有 邻接 法 和 非 加权 
组 平均 法 两 种 画 树 方法 。 每 种 建树 方法 都 带 有 各自 
许多 不 同 的 选项 供 研究 人 员 根 据 自己 研究 的 目的 
进行 选择 优化 。 软 件 包 带 有 画 树 的 子 程序 ， 可 以 画 
三 角形 有 根 树 及 和 矩形 有 根 树 (drawgram )， 也 可 以 
画 无 根 树 (drawtree )。 子 程序 seqboot 使 用 自 举 检 
验 法 或 刀 切 法 对 构建 的 树 进行 标准 误 估计 及 可 靠 
性 检验 ， 提 供 分 析 报 告 。 此 程序 包 还 可 以 实现 一 致 








































































































































































































接 法 、 最 大 简约 法 和 最 大 似 然 法 得 到 的 进化 树 往往 
具有 相似 的 拓扑 结构 (Saitou & Imanishi, 1989). 
当 序 列 之 间 的 分 歧 度 比较 高 ， 将 DNA 序列 转 为 距 
离 和 矩阵 时 往往 会 丢失 一 些 信息 (Penny, 1982). 
而 距离 法 的 性 能 依赖 于 距离 矩阵 的 质量 ， 因 此 ， 距 
离 法 只 能 当 序列 满足 某 些 条 件 时 才 会 有 较 高 的 准 
确 性 。 简 约法 不 依赖 任何 进化 模型 ， 但 进化 树 的 简 
约 计 分 完全 决定 于 重建 祖先 序列 中 的 最 小 突变 数 ， 
而 突变 是 否 按照 事先 约定 的 核 昔 酸 最 少 替代 途径 
进行 是 不 得 而 知 的 。 再 者 ， 所 有 分 文 的 突变 数 不 可 
能 相同 。 由 于 没有 考虑 核 昔 酸 的 突变 过 程 ， 使 得 长 
分 文 末端 的 序列 由 于 趋同 进化 而 显示 较 好 的 相似 
性 ， 导 致 对 “长 枝 吸 引 ” (Holder & Lewis, 2003) 
的 敏感 。 因 此 ， 当 序列 分 歧 度 较 高 时 ， 最 大 简约 法 
极 可 能 得 出 错误 的 拓扑 结构 。 最 大 简约 法 只 适用 于 
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表 7 常用 软件 及 其 特点 
Table 7 Frequently-used software and characteristic 
软件 网 址 特点 
Software Website Characteristic 
LEZI ji PIA PS fi She fe ae Ee 
Phylip http://evolution.genetics.washington.edu/phylip.html 支持 多 种 系统 。 借 助 Clustalx 软件 进行 序列 比 对 ， 借 助 Treeview 软件 查看 进 
化 树 拓扑 图 
图 形 界面 ，MP 算法 较 好 的 软件 ， 支 持 自动 和 手动 序列 比 对 ， 输 入 序列 可 以 为 
MEGA http://www.megasoftware.net/ 本 地 的 文本 文件 也 可 以 从 NCBI Sede piz. TW DOE LAER RR. HE 
等 不 同形 状 。4.0 以 下 版 本 没有 ML 算法 ，4.0 版 本 以 后 可 以 提供 分 析 报 告 
ia . 只 支持 贝 叶 斯 方法 建树 ， 命 令 行 形式 ， 对 机 器 内 存 和 处 理 速度 要 求 很 高 ， 计 
TBayes http://mrbayes.sourceforge.net/ cg seein 
算 速 度 较 慢 
Paup http://paup.csit.fsu.edu/ WBE ee, MP 算法 最 好 
Phyml http://atge.lirmm.fr/phyml/ ML 算法 建树 最 快 
Network http://www.fluxus-engineering.com/sharenet.htm 可 以 产生 进化 树 和 网 络 ， 并 能 估计 祖先 的 年 龄 
Pebble http://www.cebl.auckland.ac.nz/software2.php ML 和 最 小 二 乘法 构建 系统 发 育 树 ， 漳 祖 模型 。 
? ML 算法 建树 , 要求 序 列 集 小 于 257, 否则 产生 溢出 , 用 QP Cquarter puzzling) 
Tree-puzzle http://www.tree-puzzle.de/ 值 对 树 进行 评估 ， 并 可 进一步 分 析 所 选 数据 的 恰当 性 








序列 相似 性 较 高 的 序列 建立 进化 树 ， 其 次 ， 最 大 简 
约法 在 序列 数据 量 较 大 的 时 候 ， 建 立 进化 树 相当 耗 
时 (是 个 NP-complete 问题 ) (Foulds & Graham, 
1982 )。 最 大 似 然 法 是 一 种 建立 在 进化 模型 上 的 统 
计 方 法 ， 具 有 统计 一 致 性 、 健 壮 性 ， 能 够 在 一 个 统 
计 框 架 内 比较 不 同 的 树 以 及 充分 利用 原始 数据 等 
优点 (Bryant & Galtier，2005)。 但 它 与 邻接 法 一 
样 需要 选择 模型 ， 一 般 选 择 Kimura-2 参数 模型 。 
日 对 于 不 同 模型 会 得 出 不 同 的 结果 ， 算 法 相对 比较 
耗 时 ， 适 用 于 序列 不 是 很 多 的 情况 。 贝 叶 斯 法 因为 
后 验 概率 不 仅 涉 及 所 有 的 树 ， 而 且 对 于 每 一 棵 树 
还 整合 了 校长 和 替代 模型 参数 值 的 所 有 可 能 组 合 ， 
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所 以 不 可 能 采用 常规 的 分 析 方 法 解决 。 所 幸 的 是 ， 
一 系列 数值 方法 可 用 于 近似 地 获取 后 验 概率 ， 其 中 
































最 有 用 的 就 是 马尔 可 夫 链 :蒙特 卡 罗 算 法 。 其 基本 有 思 
想 是 建立 马尔 可 夫 链 ， 以 替代 模型 参数 作为 状态 空 
静态 分 布 就 是 参数 的 后 验 概率 分 布 。 通 过 计 
算 机 模拟 和 抽样 技术 获得 分 支 格局 的 后 验 概率 。 同 
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以 往 的 最 大 似 然 法 相 比 ， 贝 叶 斯 推论 的 优越 性 在 
于 : 能 够 以 很 高 的 计算 速度 处 理 大 型 数据 集 ， 同 时 
还 使 用 后 验 概率 衡量 树 的 置信 和 度 (Huelsenbeck & 
Ronquist, 2001). 


















































3 2 4 
近年 人 们 在 构建 系统 发 育 树 方面 已 经 取得 了 








很 大 进展 ， 构 建 系统 发 育 树 的 算法 和 软件 也 一 直 在 
不 断 完善 。 通 过 对 生物 系统 发 生 分 析 重 建 进化 树 ， 
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